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|Le traitement de decompression d'un 
fdocument ainsi obtenu est effectue 
jen executant les etapes 11 a 15 sur 
jle schema de structure du document 
^pour obtenir les automates, puis en 
jjexecutant l'etape 15 1 de decodage ou 
|de decompression du document, cette 
|etape consistant a parcourir ie 
^document compresse en executant les 
^automates obtenus a la suite des 
jetapes 11 a 14, de maniere a pouvoir 
^determiner le type et le nom des 
^elements d ' information compresses 
jrencontres dans le document. Les 
jjvaleurs des elements qui ont ete 
|obtenues a, 1 ' aide de modules 16 de 
fcompression externes sont 
!decomPx.e.ssiee,s....a..-J..^a.i.de....de..mod.\)J.e.s,...d.e.. 



Automatically translated text : 

The treatment of decompression of a 
document thus obtained east carries out 
by carrying out stages 11 has 15 on the 
diagram of structure of the document to 
obtain the automats, then by carrying 
out stage 15 1 of decoding or 
decompression of the document, this 
stage consisting has to traverse IE 
document compresses by carrying out the 
automats obtained following stages 11 A 
14, so as to be able to determine the 
type and the name of the data elements 
compress meetings in the document. The 
values of the elements which were 
obtained has, the assistance of external 
modules 16 of compression are 
decompressed using modules of 
decompression 16 1 correspondents. 
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PROCEDE DE COMPRESSION/DECOMPRESSION DE DOCUMENTS STRUCTURES. 

(§) Ce procfcde s'applique a la compression et decom- 
pression dun document structure associe a au moins un 
schema de structure arborescent (1; 31 . 39, 43) definissant 
une structure du document et comprenant des elements de 
structure imbriquSs, associes a un type d'information, et re- 
presentant des ensembles d'informations. ce proc6de com- 
prenant les etapes: d'analyse syntaxlque (11) du schema 
de structure et la normalisation (12) de ceiui-ci de manifere 
a obtenir un ordre unioue predefine des elements du sche- 
ma: de compilation (13) du schema normalise en vue d'ob- 
tenir des automates a etats finis (5), chaque automate 
comprenant des Stats ("0". M r,.. M " n "j relies entre eux par 

des transitions (•* ml , M m2 u u mn '*) representant respec- 

tivement les elements de la structure: et de compression 
(15) du document (2) comprenant lexecution des automa- 
tes (5) sur ie document, et I'exGcuiion d'au moins un algo- 
rithme de compression (16) associe a un type 
d'informations, lorsqu'un ensemble d'informations ayant ce 
type d'information est rencontre dans le document (2). 
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PROCEPfc DE COMPRESSION/DECOMPRESSION DE DOCUMENTS 
STRUCTURES, 

5 La presente invention concerne un procdde dc compression / decompression de 
documents structures. 

Elle s'applique notamment, mais non exclusivement, a la transmission de 
documents tels que des images ou sequences d'images, des donnees vid£o ou 
10 sonores, par des reseaux de transmission de donnees numeriques, ainsi qu'au 
stockage de tels documents. 

A I'heure actuelle, il existe plusieurs algorithmes de compression de document 
numerique. Certains algorithmes de compression sont con<?us pour traiter 
15 directement les donnees binaires du document, sans tenir compte du type de ces 
donnees. Ces algorithmes presement 1'avantage de pouvoir traiter n'importe quel 
document, rp^is,sont peu performants (taux de compression peu eleve) pour 
trailer des documents volumineux qui sont generalement de type son ou image. 

20 On connait par ailteurs d'autres algorithmes de compression plus efficaces, mais 
specialement adapites a un type de donnees, par exemple de type image ou son, 
de sorte qu'ils ne sont pas utilisables. ou performants s'ils sont appliques a des 
documents ne contenant pas exclusivement des donnees pour lesquelles ils sont 
con9us. 

25 

Or de plus en plus, les documents utilises et circulant sur les reseaux de 
transmission de donnees contiennent plusieurs types d'informations integrdes 
dans une structure. 

Un document structure est une collection d'ensembles d'informations assoctes 
30 chacun h un type, et composes entre eux selon des relations principalement 
hierarchiques. Ces documents emploient un langage de structuration tel que 
SGML, HTML. XML, perrnettant notamment de distinguer les differents 
ensembles d'informations composant le document. Par opposition, dans un 
document dit lineaire, les informations de contenu du document sont melangees 
35 aux informations de presentation et de typage, 

Ainsi, un document structure inclut des reperes de separation des differents 
ensembles d'informations du document. Dans le cas des formats SGML, XML ou 
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HTML, ces reperes appeles "balises" sont de la forme "<XXXX>" et 
"</XXXX>'\ le premier repere indiquant le debut de I'ensemble ^informations 
M XXXX M et le second la fin de cet ensemble. Un ensemble ^informations peut 
etre compose de plusieurs ensembles d'informations de plus bas niveau. Ainsi, un 
5 document structure presente un schema de structure hierarchique ou 
arborescente, chaque noeud representant un ensemble d'informations et etant relie 
a un nceud de niveau hierarchique superieur representant un ensemble 
d'informations qui contient les ensembles deformations de niveau inferieur. Les 
noeuds situes en bout de branche de cette structure arborescente repr^sentent des 
10 ensembles d'informations contenant des donnees d'un type pred^fini, qui ne 
peuvent pas etre d£composees en sous-ensembles d'informations. 

Un document structure est generalement associe a ce qu'on appelle un schema de 
structure definissant sous la forme de regies la structure et le type d'information 
15 de chaque ensemble d'informations du document. Un schema est consume de 
groupes imbriques de structures d'ensembles d'informations. ces groupes pouvant 
etre des sequences ordonnees, des groupes d'elements alternatifs ou des groupes 
d'elements n^cessaires, ordbnnes ou non ordonnes. 

20 Ainsu un document structure est associe a un schema de structure et contient des 
reperes de separation represents sous la forme de donnees textuelles ou binaires, 
ces reperes delimitant des ensembles d'informations pouvant eux-memes contenir 
d'autres ensembles d'informations delimites par les reperes. II en resulte qu'un 
document ainsi structure peut comprendre non seulement des donnees textuelles, 

25 mais egalement tout autre type d'information (par exemple des donnees sonores, 
des images, etc.). Par consequent les algorithmes de compression specifiques 
d'un type de donnees particulier sont peu efficaces et mal adaptes pour traiter ce 
type de documents. 

30 La presente invention a pour but de supprimer ces inconvenients. A cet effet, elle 
propose un procede pour la compression et decompression d'un document 
structure, associe a au moins un schema de structure arborescent definissant une 
structure du document et comprenant des elements de structure imbriques 
representant des ensembles d'informations, les elements de structure etant 

35 rSpartis en trois categories, a savoir des elements racine structures decomposes 
en groupes d'elements et en elements de base structures, ou non structures 
correspondant aux elements de plus bas niveau dans la structure, chaque element 
de base ei element racine etant associe a un type d'information. \ 



ISOOCID: <FFI 28U743A1J_> 



.-3- , 



2813743 



Selon Tinvention, ce procede est caracterise en ce qu'au moins un type 
d'infonmation des elements de base est associe au prealable a un algorithme de 
compression adapte, le procede comprenant les etapes suivantes : 

5 

- Tanalyse syntaxique du schema de structure du document et ia normalisation 
de celui-ci de manterc a obtenir un ordre unique predefini des elements du 
schema. 

10 - la compilation du schema de structure normalise en vue d'obtenir un automate 
a etats tlnis par element racine, chaque automate comprenant des etats relies 
entre eux par des transitions representant. respectivement les elements de la 
structure, et 

15 - la compression du document structure comprenant Texecution des automates & 
etats finis sur le document, et 1'execution de I'algorithme de compression 
lorsqu'un ensemble d'informations ayant un type d'information associe audit 
algorithme est rencontrd dans le document a compresser. 

20 Grace a la compilation du schema de structure, la structure du document est 
representee d'une maniere tres compacte, et du fait que chaque ensemble 
d'informations correspondant a un element de structure de base est associe a un 
type d'information, il peut etre traits par l'algorithme de compression le mieux 
' adapte a son type. De cette maniere, si le document contient par exemple des 

25 donnees textuelles, des images, et des donnees sonores, ces donnSes sont 
parfaitement reperees dans le document structure, et associees a un element de 
structure de bas niveau et un type. Au cours de Pexecution des automates, ceux-ci 
vont detecter la presence d'ensembles d'informations ayant un type de base 
associe a un algorithme de compression et appeler successivement les 

30 algorithmes correspondants sur ces donnees pour obtenir des sequences 
d'informations binaires correspondantes qui sont inserees au fur et a mesure dans 
le document resultant de la compression. 

En outre, dans le cas d'une transmission de donnees, si les documents transmis 
35 presenterit toujours le meme schema de structure, il n'est pas necessaire de 
transmcttre celui-ci a chaque transmission de document, d'ou un gain 
supplementaire au niveau du taux de compression obtenu grace au proc&16 selon 
Tinvention. Cette transmission est meme inutile lorsque le schema est 
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prealablernent connu du desiinataire du document. Par exemple s'il s'agit d'un 
document HTML, il iVest jamais besoin, meme la premiere fois de coder le 
schema du document. 

5 Par automate a etats finis, il faut comprcndre un ensemble d'etats, chaque etat 
etant associe a un ensemble d'evenements d'entree et une fonction de transition 
qui determine pour chaque evenement d'entree ['ensemble des etats actifs de 
l'automate. Compte tenu de cette definition, on peut imaginer de nombreuses 
representations, par exemple faisant intervenir des tables de transcodage, a raison 
10 d'une table par etat indiquant pour chaque evenement d'entree, la table 
correspondant a I'etat suivant, ou encore des tables de correspondances, a raison 
d'une table par automate ayant autant de Ugnes et de colonnes qu'il y a d'6tats 
dans ('automate, chaque case de la table contenant la description de la transition 
entre les deux etats correspondants. 

15 

A la. decompression, le schema de structure est traite de la meme fa<?on pour 
determiner les automates ayant servi a la compression et analyser le contenu du 
document compresse en vue de reconstituer un document au format d'originc 
ayant une structure au moins equivalente, sinon identique, des algorithmes de 
20 decompression correspondant aux algorithmes de compression utilises lors de la 
compression etant executes pour restituer les ensembles ^informations d'origine 
a partir des sequences d'informations binaires reperees dans le document 
compresse. 

25 Dans le cas ou le schema de structure doit etre transmis avec le document, le 
procede selon I'invention comprend avantageusement une etape de transmission 
du schema de structure qui peut etre celui d'origine, celui obtenu apres 
transformation et normalisation, ou encore celui obtenu apres compilation. 

30 Selon une particularite de I'invention. chaque ensemble deformation est repere 
dans le document compresse de maniere a permettre un acces direct a un dement 
deformation particulier, sans qu'il soit necessaire de decompresser tout le 
document, ni les ensembles d'informations precedant I'ensemble h decompresses 

35 Selon une autre particularite de I'invention, chaque 6l6ment du schema de 
structure est en outre associe a un ensemble de nombres d'occurrences possibles, 
indiquant le nombre de fois qu'un ensemble d'informations ayant cet £l£ment de 
structure peut apparaitre dans I'ensemble d'informations de niveau 
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immediatement superieur auquel il appartient. 

Lc procede selon I'invention peut comprendre une etape d'optimisation du 
schema de structure du document consistant a reduire le nombre de niveaux 
5 hierarchiques de groupes d'elements de structure. Cette optimisation permet de 
simplifier le schema de structure, mais rend le traitement de compression mois 
eftkace. 

Un mode de mise en ceuvrc du procede selon I'invention sera ddcrit ci-apr6s, a 
1 0 titre d'exemple non limitatif, avec reference aux dessins annexes dans lesquels : 

La figure 1 represente sous la forme d'un schema-bloc 
renchainement des differentes etapes du procede selon I'invention ; 

Les figures 2a, 2b et 2c representent graphiquement un schema de 
1 5 structure sous la forme d'un arbre ; 

La figure 3 montre un schema de structure obtenu en appliquant 
une methode de reduction selon I'invention au schema de structure 
represente sur la figure 2 ; 

Les figures 4a, 4b et 4c montrent un schema de structure obtenu en 
20 appliquant une autre methode de reduction selon I'invention au 

schema de structure represente sur la figure 2 ; 

Les figures 5a a 5c representent respectivement trois automates a 
etats finis obtenus et utilises par le procede selon* I'invention ; 

La figure 6 represente un autre automate illustrant une methode 
25 d'optimisation utilisee par le procede selon I'invention ; 

Les figures 7a et7b representent deux automates obtenus a l'aide du 
procede selon I'invention a partir d'un schema de structure 
particulier ; et 

La figure 8 illustre I'application d'une methode de reduction aux 
30 automates reprdsentes sur les figures 7a et 7b. 
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La figure 1 reprtsente renchainement des differentes Stapes du procede selon 
rinvention. 

Ce procede est con$u pour trailer un document structure constitue d'un schema de 
5 structure 1 definissant ia structure du document et des informations structurees 2 
du document. 

Dans le langage XML Schema, un schema de structure presente par exemple la 
forme suivante : 

10 

<elemer.c name** M C"> 
<corr.plexType> 

<a-tribute name="a2" required=f alse type= ,, boolean M /> 
Attribute name= M al M required=true type=" integer" /> 
15 <Group order=choice> 

<element name="A M type="TA" minOccurs=l maxOceurs=l/> 
<element name="B M type="TB M minOccurs=l maxOccurs=l/> 
</3roup> 
</cc~plexType> 
20 <elemer.-> 

Ce schema indique que l'element nomme "C" presente une structure complexe 
constitute d'un premier element nomme "a2" de type booleen qui est optionnel, 
d'un second element nomme "al" de type entier qui est toujours present dans la 
25, structure, et d'un groupe d'etements alternatifs nommes "A" et de types 
respectifs "TA" et "TB'\ Tun des ces deux Elements etant present une seule fois 
dans la structure, 

Les types "TA" et "TB" sont definis dans le schema de structure du document par 
30 une formulation analogue. 

D'une maniere generate, on utilise les groupes d'dlements suivants pour d^finir 
une structure de document : 

35 - SEQ : qui definit une liste d'elements ordonnes qui doivent tous apparaitre 
dans le document et dans l'ordre indique, 

- CHO : qui definit un ensemble d'dements alternatifs, un seul element du 
groupe devant apparaitre, 

. - ET : qui definit un ensemble d'elements qui doivent tous apparaitre dans le 
40 document et dans un ordre quelconque qui ne doit pas Stre modifie, 

- ET NO : qui definit un ensemble d'elements qui doivent tous etre presents dans 
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le document dans un ordre quelconque qui n'a pas d'importance, et 
- ANY : qui comprend un element quelconque parmi tous les elements possibles 
que Ton peut trouver dans le document. 

5 Selon I'invention, cette formulation est analysee et transformee a l'etape 1 1 du 
precede pour obtenir des arbres syntaxiques 4, a raison d'un arbre par element de 
structure. L'arbre syntaxique correspondant a l'element de structure TC est 
symbolise par la formule suivante : 

10 TC->«alji } & m a2^ 0l) ) u .(A^ A} | Bft B} ) u ) u (1) 

dans laquelle : 

■'->" indique que TC est le nom donne a la structure definie apres ce symbole, 
"( )" indique les priorites avec lesquelles les groupes d'elements doivent etre 
15 lus, 

V correspond a un groupe d'elements de type sequence (SEQ), 
T represente un groupe d'elements altematifs (CHO) 

represente un groupe d'elements de type ET, 
"&«>" represente un groupe d'elements de type ET non ordonne, 
20 "{}" associe a un element un nom d'element de structure ou bien un type de 

base (par exemple entier ou booleen), et 
'"A**" indique que l'element A est repete de x a y fois dans le document, y 

pouvant etre 6gal & "*" representant une valeur indeterminee. 

25 Cette formulation utilise egalement le symbole $ H qui represente n'importe quel 
element (ANY). 

La formule ( 1 ) peut etre representee par l'arbre represente sur la figure 2c, cet 
arbre comprenant un element racine "TC" 43 constitue d'une occurrence unique 
30 d'un groupe de type sequence 44. Ce groupe comprend une occurrence unique 
d'un groupe de type "ET" non ordonne 45 et une occurrence unique d'un groupe 
alternatif 46, 

Le groupe 45 etant constitue d'une occurrence unique d'un entier nomme "al" et 
d'un booleen nomme M a2", et le groupe 46 comprenant une occurrence unique 
35 d'un element nomme "A" de type "TA" et d'un element M B" de type "TB". 

Les types "TA" et "TB" obtenus a l'etape 1 1 sont par exemple donnes par les 
formules suivantes : 
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TA^((a3|i,A.4jip u .(X|fc,.Y^,.) u ) u (2) 
TB^(alji } ,a5f ii , 0Ol} ) U (3) 

5 et represents par les arbres montres respectivement sur les figures 2a et 2b. 
Le type "TA" 31 comprend un groupe unique 32 de type sequence constitue de 
deux groupes uniques 33, 34, respect ivement de type ET et SEQ. Le groupe 33 
comprend deux occurrences uniques dc type entier, nommees respectivement 
"a3" et "a4'\ Le groupe 34 comprend deux occurrences uniques de type "TC" 
10 nommees respectivement "X" et "Y". 

Le type "TB" 39 est constitue d'uri groupe unique 40 de type sequence 
comprenant deux booleens respectivement nommes "al" et "a5". 

' Bien que dans la description qui precede, on a distingue le nom de chaque 
15 element et son type, le procede selon I'invention s'applique egalement aux 
langages de structuration qui ne font pas cette distinction. 

Par ailleurs, les elements de structure doivent etre deterministes, c'est-&-dire 
qu'un element ne doit pas pouvoir etre interpr&e de plusieurs manieres 

20 differentes. Par exemple, dans le schema "(a | (a -, b))", dans le cas ou "a" 
apparait. on ne sail pas si M b" doit apparaitre ensuite. II existe a cet effet des 
algorithmes qui peuvent etre appliques par le proced6 selon 1'invention pour 
transformer un schema non deterministe en un schema d&erministe. On peut par 
exemple se referer aux documents ("Regular expressions into finite automata" 

25 Briiggemann-Klein, Anne, Extended Abstract in I. Simon, Hrsg., LATIN 1992, 
S. 97-98. Springer- Verlag, Berlin 1992. Full Version in Theoretical Computer 
Science 120: 197-213, 1993]. Ainsi, le schema ci-avant peut par exemple etre 
remplace par "(a , b° , ) M . 

30 A 1'etape 12 suivame du procede selon I'invention, les elements du schema de 
structure transformes en arbres syntaxiques peuvent tout d'abord subir un 
traitement de reduction ou de simplification. 

Ce traitement de reduction consiste a effectuer un aplatissement global en 
35 generant un seul arbre syntaxique 51 a partir de tous les arbres 3L 39 et 43, 
comme cela est represente sur la figure 3. 

Cet arbrc represente en fait un dictionnairc de tous les types d'elements 
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susceptibles d'etre rencontres dans le document, ces elements etant rassembles 
dans un groupe 52 de type alternatif apparaissant au moins une fois (1..*) dans le 
document. Dans cet arbre, les elements dc type complexe "A", "B'\ "X" et M Y" 
sont associes a un type "ANY", et ('element "al" qui apparaissait deux fois (dans 
5 les elements "TIT et 'TC") avec des types differents, est associe a un type par 
defaut "pedata" selon le langage XML ou au type de l'element dans le document 
initial, par exemple texte. Un meme ensemble d'informations peut en effet etre 
represents de plusieurs manieres : par exemple une sequence binaire peut 
egalement etre consideree comme une chaine de caracteres ou un nombre entier. 

10 

Alternativement, ce traitement de reduction consiste a aplatir localement les 
arbres syntaxiques pour obtenir les arbres represents 31\ 39' et 43* sur les 
figures 4a a 4c. 

15 Dans chacune de ces figures, les groupes 32 a 34 (figure 2a), 40 (figure 2b) et 44 
a 46 (figure 2c) ont ete respectivement remplaces par un groupe 53, 54, 55 de 
type alternative apparaissant au moins une fois (!..♦). 

Les arbres "TA'\ "TB" et M TC" peuvent en outre subir un traitement 
20 supplemental pour supprimer les ambigui'tes apparaissant dans le schema de 
structure. 

A I'etape 12, les arbres "TA". "IB" et , TC H subissent egalement un traitement de 
normalisation qui consiste a reordonner le schema de maniere a obtenir un ordre 
25 unique des elements du schema, Ce traitement affecte un numero binaire aux 
differents noeuds des arbres syntaxiques obtenus a la suite des traitements 
precedents. Ce numero est utilise lors de Ja compression de Tdement 
correspondant. 

30 Ce traitement de normalisation consiste a attribuer & chaque groupe une signature 
constitute de la concatenation du nom du groupe avec la signature de tous les 
elements et des sous-groupes du groupe, prealablement ordonnes. Ainsi, le 
groupe 53 sur la figure 4 esi associe a la signature "CHO.a3.a4.X.Y" (ou 
H |a3.a4.X.Y"). 

35 

Pour ce traitement de normalisation, on consid£re que les groupes ordonnes 
(SEQ) sont deja normalises. Les groupes a normaliser sont done les groupes de 
type alternatif ("CHO"), et les groupes "ET" et M ET N0 ". Ce traitement comprend 
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les etapes suivantes pour chaque groupe G compose de sous-groupes & et 
d'elemems ej : 

- ia normalisation des sous-groupes & ^ventuels du groupe G avant de 
5 normaliser le groupe G, I'algorithme de normalisation etant recursif, 

- le rangement des elements e t eventuels du groupe G avant les sous-groupes gj, 

- le rangement des elements e, dans un ordre predefini, 

- le rangement des sous-groupcs & dans l'ordre predefini, et 

- Ia determination de la signature du groupe G donnee par la concatenation de 
10 toutes les signatures de ses composants (elements et sous-groupes) suivant 

l'ordre etabli a la suite des etapes precedentes. 

L'ordre predefini de rangement des composants du groupe peut etre l'ordre 
alphanumerique de leurs signatures respectives, ou l'ordre decroissant de leur 
15 nombre minimal d'occurrences. les composants ayant le meme nombre minimal 
d'occurrences etant ensuite ranges par ordre alphanumerique. 

II est a noter que ce traitement de normalisation n'est pas necessaire dans le 
precede selon I'invention. L'ordre d'apparition des composants dans le schema 
20 pcui en eftet etre conserve. 

L'eiape 1 3 suivante du procede consiste a generer des automates a etats finis 5. 
Ce traitement consiste a generer pour chaque arbre syntaxique un ensemble 
d'automates de base, a raison d'un automate par groupe de Tarbre syntaxique, puis 
25 a combiner ces automates de base. 

Sur la figure 5a, Tautomate d'un groupe sequentiel (SEQ) de n elements de 
signatures ml, m2. mn, de niveau hierarchique immediatement inferieur 
comprend n+2 etats numerates de 0 a n+l symbolisms sur la figure par des 
30 ccrclcs, chaque nceud etant relie a son successeur par une transition symbolisee 
par un arc correspondant a un element du groupe et appele par la signature de 
I'clcment. la demiere transition F (vers l'etat n+l) marquant la fin du groupe. 

Sur la figure 5b, I'automate d'un groupe de type alternative (CHO) de n elements 

35 de signatures ml, m2 mn, de niveau hierarchique immediatement inferieur 

comprend un etat initial numerote "0" et n etats finaux numerotes de I a n, l'etat 0 
etant relie aux etats finaux I a n respectivement par n transitions correspondant 
respectivement aux n elements du groupe. 
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Sur la figure 5c, I'automatc d'un groupe ET de n elements de signatures ml, m2, 
mn, de niveau hierarchique immediatement inferieur comprend 
l+n+n*(n-l)+n*(n-l)*(n-2)+—+n! etats representant toutes les combinaisons 
5 possibles des n elements, 

Un tel automate peut etre gencre par un algorithme simple tel que celui qui suit : 

E est 1' ensemble des composants possibles du groupe 
10 Executez Fonction_l (E, ezat initial) 

Fonction_l (E, 6tat e) : 

Rep§tez tant que E n' est pas vide 

S61ectionnez un Element mi de E et le retirez de E 
15 Creez un etat e' et un arc joignant e a e' not6 mi 

Dupliquez E en E' 
Executez f onction_l {£' , etat e' ) 
Fin repetez 

20 L'automate d'un groupe ET N o de n elements de signatures ml, m2, mn, de 
niveau hierarchique immediatement inferieur peut etre celui d'un SEQ des lors 4 
que Ton accepte de perdre 1'information concernant Tordre d'apparition des 
elements dans le groupe ou qu'il est fixe. 

25 Ces automates (cas des groupes de type CHO, ET et ET N0 ) peuvent etre 
optimises en appliquant un traitement d'evitement des elements optionnels, c'est- 
a-dire dont Tensemble des occurrences possibles est de la forme (0..k). Cette 
regie reflete le fait que chaque element associe a un nombre d'occurrences 
minimal nul n'est pas forcement code. 

30 Comme represente sur la figure 6, ce traitement consiste a rajouter une transition 
entre Tetat M l" situe immediatement en amont d'un element optionnel "2" et tous 
les etats "3" immediatement situes en aval de cet element, cette nouvelle 
transition etant associee & la signature "m3" de Telement correspondant a l'&at ou 
elle aboutit. 

35 Si Tun des etats situes immediatement en aval est egalement associe a un element 
optionnel, il faut prevoir egalement une transition vers tous les etats situes 
immediatement en aval de cet etat. 

Ce traitement peut etre effectue par Talgorithme suivant : 

40 

Soit Z le sous-ensemble des nceuds de 1' automate doni 
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1' element associ.6 a une' occurrence minimale nulle. 

Repetez (tant que 1' automate est modifi.6 par la procedure 
suivance) : 
5 Pour chaque Element X de Z : 

Pour chaque transition entrante TEx de X : 
Pour chaque transition sortante TSx de X : 

1 . Creez une nouvelle transition N reliant le nceud 
source de la transition TEx et le noeud destination de 

10 la transition TSx. La transition est marquee par la 

valeur de l'arc TSx 

2. Si une transition identique n'existe pas deja dans le 
graphe, la rajou~er au graphe 

Fin pour' 
15 Fin pour 

Fin pour 
Fin repetez 

II est a noter que les automates ainsi generes pour un schema de structure sont 
20 imbriques dans les autres. En effet, dans les automates correspondant a Texemple 
de schema represent^ sur la figure 2. lorsque le type TC (elements X et Y) est 
rencontre dans l'automate correspondant au type TA 31, Pautomate correspondant 
au type TC 43 est entierement execute avant de poursuivre l'execution de 
l'automate correspondant au type TA. 

25 

L'etape 14 suivante du procede selon I'invention consiste a reduire et transformer 
les automates obtenus precedemmem. 

On peut ainsi fusionner des automates d*un meme arbre syntaxique (et non des 
automates d'arbres differents qui s'appellent les uns les autres) de la mantere 
30 expliquee en reference avec les figures 7a et 7b. 

Ces figures representent les automates qui ont ete generes conformement au 
proced6 selon I'invention & partir de I'eiement de structure {ct\° \(b\ \ bi) 0 ' 9 ). Le 
premier automate (figure 7a) correspond au groupe SEQ (V). tandis que le 

35 second automate (figure 7b) correspond au groupe alternatif (T). 

Au cours de l'execution de ces automates, rarrivee a 1'etat 2 dans le premier 
automate entraine ('execution du second l'automate ct Tarrivee a Tetat final 1 ou 2 
dans le second automate est suivi de la poursuite de l'execution du premier 
automate. c'est-a-dire de l'execution de la transition F entre 1'etat 2 et 1'etat final 3 

40 du premier automate. 

Le traitement de fusion des deux automates permet d'obtenir l'automate 
represent sur la figure 8, dans lequel chaque alternative du groupe CHO esi 
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representee par une transition assoctee a la signature N cho.bl.b2 n du groupe, 
concatenee avec la signature M bl M , M b2" de Telement du groupe figurant dans 
Talternative choisie. 

5 Au cours de cette etape 14, les automates peuvent 6galement subir un traitement 
de minimisation du nombre d'etats, par exemple. en appliquant Talgorithme de 
Hopcroft, puis un traitement de normalisation pour obtenir des automates 
normalises 6. 

10 A Tissue de ce traitement, les transitions au depart de chaque nceud sont 
numerotees de 0 a n. 

L'etape suivante 15 consiste a rclire le document 2 a compresser les donnees qu ! il 
contient en executant les automates sur la structure du document, en vue d'obtenir 

15 une succession de sequences binaires dans lesquelles on trouve la valeur 
compressee de chaque element ou ensemble d'informations de base du document. 
Selon un premier type de codage, ces sequences binaires sont de la forme 
(K.N.V,..V N ) C pour chaque element ou groupe d'eldments e, N 6tant le nombre 
d'occurrences de Telement e ou le nombre d'ensembles d'informations successifs 

20 correspondant a Telement e, K etant le numdro de la transition ay ant permis 
d'aneindre Telement e, et V,..V N les valeurs respectives, eventuellement 
compressees des N occurrences de l'616ment e. Si e est un groupe d'elements, sa 
valeur V est decomposee en autant de sequences binaires (K.N.V) qu'il contient 
d'elements. Toutefois, dans certains cas, N peut etre omis, notamment lorsque ce 

25 nombre est fixe. II en est de meme de K dans le cas ou il n'y a qu'un seul arc en 
provenance d'un etat, par exemple dans un groupe de type sequence. 

Au prealable, on peut realiser un entete general du document compresse qui 
regroupe plusieurs parametres codes, utiles a la description du document. Ainsi, 
30 un tel entete peut comprendre une signature du ou des schemas de structure 
utilises, et un ensemble de parametres decrivant le codage utilise, comme par 
exemple : 

- un parametre indiquant si le codage de la longueur de chaque element est 
35 obligatoire ou optionnel ou non present dans le document, 

- un parametre indiquant si les elements peuvent ou non etre sous-types, c'est-a- 
dire associes a un type plus precis que leur type de base, et 

- un parametre indiquant le type de codage utilise pour le nombre d'occurrences. 
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Chaque element d'information du document peut egalement etre associe a un 
entete, sa presence et sa nature etant precises dans I'entete du document. 
L'entete d'un element peut ainsi comprendre la longueur codee de celui-ci, de 
5 maniere a pcrmertre, lors de la decompression du document, Faeces a un element 
particulier sans decompresser tous les elements precedents dans le document. Les 
entetes d'elements sont inseres dans le document par exemple juste avant le 
codage dc la valeur des elements. 

10 D'une maniere generate, la compression du document consiste a lire 
sequentiellement le document, en executant les automates du schema, ce qui 
permet en outre de verifier que la structure du document correspond au schema 
compile. 

15 Au cours de ce traitement. on code le nombre d'occurrences de chaque element 
apparaissant dans le document. A cet effet, on applique les regies suivantes. 

Dans le cas ou le nombre d'occurrences d'un element e est defini par (i.j), on 
distingue les cas suivants : 
20 Si j est different de "* n et i est different de 0, le codage est decompos6 en deux 
parties, a savoir (Li) et (0..j-i), la premiere partie n'est pas codee car cette 
formulation specific que i occurrences sont nrfcessaires. La seconde partie est 
codee sur |log>(j~i+ 1 )| bits. 

25 Si j est different de V et i est egal a 0, le codage du nombre d'occurrences est 
effectue entre 1 et j, soit sur |log2(j)l bits, car si ce codage est necessaire, cela 
signifie qu'il y a au moins un element e dans le document. 

Si j est egal a on utilise une technique de codage telle que ASN1 selon 
30 laquelle le premier octet indique sur combien d'octets le codage est effectue, et 
les octets suivants contiennent la valeur du nombre d^ccurrences. On peut aussi 
utiliser le bit de poids fort de chaque octet pour indiquer s'il est ou non le dernier 
octet de codage du nombre d'occurrences, les sept bits suivants de chaque octet 
servant a coder le nombre d'occurrences. 

35 

Altemativement, on peut choisir un autre type de codage dans lequel il n'est pas 
necessaire d'introduire le nombre d'occurrences des elements d'un schema de 
structure. Selon ce type de codage. on introduit un type appete "echappement" ou 
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"esc" qui indiquc I'etat final des automates, II est done necessaire d'appliquer au 
prealable une transformation aux automates obtenus precedemment. 
Cene transformaiion consiste a ajouter a chaque 6tat des automates une transition 
de retour vers Petal precedent et ajouter une transition "esc" vers un etat final, 
5 marquant la fin de I'execution de I'automate. Le codage des elements n'est alors 
plus que de la forme (KV), le codase d'un automate se terminant par le numero 
K^^ de la transition "esc". 

En fait, ce type de codage n'est interessant que pour le codage de formes 

10 complexes et pour des elements n'ayant pas de nombre d'occurrences maximal. II 

est en particulier tout a fait adapte au codage de groupes de type altematif 

p 

comprenant un nombre d'elements different de 2 , p etant un nombre entier. 
Ce type de codage peut etre combine avec le precedent, II suffit alors pour cela, 
de I'indiquer dans Tentete du document compresse et d'attribuer un bit aux 
1 5 endroits du codage ou doivent se trouver un nombre ^occurrences. 

Selon l'invention. au moins. un type de base des ensembles d'informations du 
document est associe a un module externe de compression 1 6. De cette mantere, 
lors de la lecture du document, les types respectifs des ensembles d'informations 

20 rencontres sont analyses, et lorsqu'un type d'ensemble d'informations est associe 
a un module externe de compression 16, celui-ci est applique au contenu de 
i'ensemble d'information et le resultat de la compression insere dans le document 
compresse en tant que valeur de I'ensemble de d'information correspondant. 
Les modules externes de compression peuvent par exemple appliquer la norme 

25 "mp3 M pour les informations sonores, "jpeg" pour les images et "MPEG 1" ou 
"MPEG 2" pour les donnees de type video. 

Si aucun module de compression n'est associe a un type d'ensemble 
d'informations, on peut utiliser un module de compression par defaut ou 
30 rccuperer les ensembles d'informatipns ayant ce type tels qu'ils apparaissent dans 
le document initial. 

Si dans I'entete du document, il est indique que le codage de la longueur est 
optionnel ou obligatoire, les elements sont associes a un entete dans 1c document 
35 compresse. contenant la longueur en nombre de bits de la valeur de Telement. 
Cette particularity permet un acces direct a un element du document compresse 
sans avoir h decompresser les elements situes avant dans le document, en lisant a 
Taide des automates uniquement les longueurs respectives de ces elements 
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jusqu'a relcment recherche. 

La longueur des elements peut etre codee de la maniere suivante, 
Dans le cas ou dans Tentete du document, il est indique que le codage de la 
longueur des elements est obligatoirc, la longueur L des elements en nombre de 
bits est calculee a Taide la formule suivante : 



ou p represente le nombre d'octets (en codage ASN1 ou utilisant les bits de poids 
fort de chaque octet utilise pour coder ce nombre) utilises pour coder la longueur 
de I'element, et h represente le nombre de bits restants de cette longueur (h < 8). 

II est a noter que le module exteme de compression 16 qui est appel£ pour 
efTectuer le codage de la valeur d'un element peut fournir en retour cette 
longueur. 

Dans le cas ou le codage de la longueur des dements n'est pas obligatoire, la 
valeur du premier bit corTespondant a la valeur de Telement indique si les bits 
suivants representent ou non la longueur de Telement. 

Si les elements peuvent etre sous-types (indique dans 1'entete du document), les 
nouveaux types eventuels sont inserts dans un entete d'element place dans le 
document compresse juste avant la valeur de Telement. Le premier bit indique si 
le type de Telement est different ou non du type attendu. Dans le premier cas, les 
bits suivants dans 1'entete de I'element contiennent le code du nouveau type, ce 
code etant determine en numerotant tous les sous-types possibles du type de base 
de I'element. cette numerotation etant donnee par le codage de la structure du 
document. 

D f une maniere plus precise, le codage d'un document est effectu6 en trois etapes 
principales. 

A la premiere etape, on num^rote les arcs sortants de chaque noeud. Cette etape 
est facultative s'il n'y a qu'un seul arc au depart du noeud. S'il van arcs sortants, 
on associe a chacun de ces arcs un numero donne par Tordre des arcs attribue lors 
de la normalisation (etape 14). Ce numero est code sur n* bits, n' etant tel que 
2 n%l <n < 2"'. 

Ainsi, si n transitions sont issues de I'etat E, chaque transition sera codee sur 



L - 8*p+h 



(4) 
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|log 2 (n- 1)|+1 bits. 

A la seconde etape. on code le nombre d'occurrences de chaque sous-automate 
comme decrit ci-avant. 

5 

A la troisieme etape, on code le sous-automate. Ce traitement peut Stre formule 
par I'algorithme suivant : 

Se placer en debut d' automate, 
10 Tant que 1' £tat actif n'est pas final 

On code l'arc que l'on traverse, s'il y a lieu 
On code le nombre n d'occurrences s'il y a lieu 
On se deplace dans le sous-automate correspondant 
au noeud atteint, 
15 On code n fois ce sous automate. 

On se replace dans 1' automate initial. 
Fin tant que. 

Par exemple, pour le codage de Incurrence u a2 a 3 aj aj a 3 " de 1'automate 
20 (aj | a 2 | a 3 ) <0 "" ) , il y a trois arcs sortants. La numerotation des arcs est done 
effectuee sur deux bits. Par consequent, le resultat du codage est le suivant dans 
le cas ou Ton code le nombre d'occurrences : 

0000 0101 01 V Q2 10 V„j 00 V ol 00 V fl/ 10 V oJ 

25 

dans lequel "0000 0101" repr&ente la valeur binaire du nombre d'occurrences 
soit 5, et V a/ , V e2 et V aS sont respectivement les valeurs des occurrences de al , a2 
et a3. 

30 Dans le cas ou Ton ne code pas le nombre d'occurrences : 

01 V„, 10 V aS 00 V ol 00 V o/ 10 V aJ 1 1 

1 1 correspondant au numero de la transition de sortie "esc". 

35 

Dans Texemple des figures 7a, 7b, le codage de roccurrence "b 2 bi ai" de 
Pautomate (a\° \{b\ \ & 2 ) 0# ) aboutit au resultat suivant (cas oh les 6tats ne sont 
pas fiisionnes) : 

40 0000 0010 nombre d'occurrences de la sequence (ici 2 fois) 
1 codage de Tare "cho.b, .b 2 M 
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0000 0010 


nombre d'occurrences "Hu erouoe "cho bl b2 M (ici 2 fois). 


1 

I 


cndape Hp Fare />•» dan*; le eroune M cho bl.b2" 


9 02 


codaee de la valeur de 


0 


codage de Tare £>i dans le groupe "cho.bl.b2 M 


Vkx 


codage de la valeur de b x . 


0 


codage de Tare a\ 


0000 0001 


nombre d'occurrences de a\ 


V a \ 


codage de la valeur de Q\ . 


1 


codage de Tare de sortie F 



Dans le cas ou les etats sont fusionnes (figure 8) 



0000 0010 


nombre d'occurrences de la sequence 


10 


codage de Tare "cho.bj.b 2 - b 2 " 


0000 0010 


nombre d'occurrences du groupe "cho.bl.b2' 


v b2 


codage de la valeur de 6 2 . 


0 


codage de Tare b, dans le groupe "cho.bl.b2 




codage de la valeur de b\ . 


00 


codage de Tare a\ 


0000 0001 


nombre d'occurrences de a\. 




codage de la valeur de a,. 


10 


codage de 1'arc de sortie F 



20 



II peut etre necessaire d'effectuer un re-ordonnancement de I'automate, 
25 notamment si le schema a ete interprets et reordonne de maniere a optimiser le 
codage dans le cas du groupe ETW 

Si Fordre des attributs n'est pas utile (comme dans le langage XML), on peut 
effectuer un codage qui reordonne les attributs des Elements dans un ordre 
predetermine, par exemple suivant un ordre alphanumerique, puis suivant le fait 
30 qu'ils sont requis ou non. Cette disposition permct dc r£duire d'autant la taille de 
la description compressee, 

Le traitement de decompression d'un document ainsi obtenu est effectu6 en 
executant les etapes I 1 a 15 sur le schema de structure du document pour obtenir 

35 les automates, puis en executant I'etape 1 5' de decodage ou de decompression du 
document, cette etape consistant a parcourir le document compresse en executant 
les automates obtenus a la suite des etapes 1 1 a 14, de manifcre a pouvoir 
determiner le type et le nom des elements d'information compresses rencontres 
dans le document. Les valeurs des elements qui ont ete obtenues a Taidc de 

40 modules 16 de compression extemes sont decompresses & l'aide de modules de 
decompression 16 1 correspondants. 
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I! est a noter que si Ton doit traiter (compresser ou decompresser) plusieurs 
documents ayant le meme schema de structure, les etapes 11 a 15 ne sont 
executees qu'une seule fois, seules les etapes 15 et 16 (ou 15' et 16') devant etre 
appliquees a chaque document a traiter. 
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1. Procede pour la compression et decompression d'un document 
structure, associe a au moins un schema de structure arborescent (1 ; 31, 39, 43) 

5 definissant une structure du document et comprenant des elements de structure 
(32. 33. 34, 40, 44, 45, 46, a3, a4, X, Y, alj.aS, al, a2, A, B) imbriques, 
represcntant des ensembles d'informations du document, les elements de 
structure etant repartis en trois categories, a savoir des elements racine structures 
(31. 39, 43), des groupes d'elements (32, 33, 34, 40, 44, 45, 46), et des dements 

10 de base structures (X, Y, A, B), ou non structures (a3, a4, al, a5, al, a2) 
correspondant aux elements de plus bas niveau dans la structure, chaque 616ment 
de base etant associe a un type d'information, 
' caracterise en ce qu'au moins un type d'information des elements de base est 
associe au prealable a un algorithme de compression (16) adapte, le procede 

1 5 comprenant les etapes suivantes : 

- I'analyse syntaxique (1 1 ) du schema de structure du document, 

- la compilation (13) du schema de structure normalise en vue d'obtenir un 
automate a etats finis (5) par element racine. chaque automate comprenant des 
etats ("0", T\ "n") relies entre eux par des transitions ("ml, w m2 ,, f 

20 "inn") representant respectivement les elements de la structure, et 

- la compression (15) du document structure (2) a compresser comprenant 
l'execution des automates a etats finis (5) sur le document, et l'execution de 
l'algorithme de compression (16) lorsqu'un ensemble d'informations ayant un 
type d'information associe audit algorithme est rencontre dans le document 

25 structure (2). 

2. Procede selon la revendication 1 , 

caracterise en ce que, en vue de la decompression du document compresse (10), 
il comprend l'execution des etapes (11, 12. 13) pour determiner les automates (5) 

30 ayant servi a la compression a partir du schema de structure (I), l'execution (15') 
des automates (5) sur le document compresse (10) pour analyser le contenu de 
celui-ci, en vue de reconstituer un document au format d'origine ayant une 
structure au moins equivalents des algorithmes de decompression (16') 
correspondant aux algorithmes de compression (16) utilises lors de la 

35 compression (15) etant executes pour restituer les ensembles d'informations du 
document structure (2) d'origine a partir de sequences d'informations binaircs 
reperees dans le document compresse durant ^execution des automates. 
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3. Procede selon la revendication 1 ou 2, 
caracterise en ce que dans le cas ou ie schema de structure (1) doit etre transmis 
avec le document, le procedd selon l'invention comprend une etape de 
transmission du schema de structure (5). 

4. Procede selon Tune des revendications 1 h 3, 
caracterise en ce qu'il comprend une etape de normalisation (12) du schema de 
structure (5) du document de maniere a obtenir un ordre unique pr^defini des 
elements du schema. 

5. Proc&te selon Tune des revendications 1 a 4, 
caracterise en ce que chaque ensemble d'information est repere dans le document 
compresse, de maniere a permettre l'acc^s direct a un ensemble d'informations 
particulier. sans qu'il soit necessaire de decompresser les ensembles 
d'informations pr£cedant l'ensemble a decompresser. 

6. Procede selon Tune des revendications 1 a 5, 
caracterise en ce que chaque element du schema de structure est en outre associe 
& un ensemble de nombres d'occurrences possibles, indiquant le nombre de fois 

20 qu'un ensemble d'informations ayant cet element de structure peut apparaltre 
dans l'ensemble d'informations de niveau immediatement superieur auquel il 
appartient. 

7. Procede selon Tune des revendications 1 a 6, 

25 caracterise en ce qu'il comprend une etape d'optimisation du schema de structure 
du document consistant a reduire le nombre de niveaux hierarchiques de groupes 
d'elemems de structure. 



10 



8. Procede selon Tune des revendications 1 a 7, 
30 caracterise en cc que le document compresse (10) comprend pour chaque 
ensemble d'informations du document d'origine, un numero de transition 
conrespondant a I'element de structure associe a l'ensemble d'informations et la 
valeur binaire de l'ensemble d'informations compresse. 

35 9. Procede selon la revendication 8, 

caracterise en ce que dans le document compress^ (10), chaque element de 
structure d'au moins une partie des elements de structure du schema de structure 
est associe a un nombre d'occurrences d'ensembles d'informations dans le 
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document. 

10. Procede selon la revendication 8 ou 9, 
caracterise en ce que dans le document compresse (10), la fin d'un groupe de 
5 plusieurs occurrences d'ensembles d'informations de meme type est marquee par 
une sequence binaire representant un numero de transition vers un 6tat final. 
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